home *** CD-ROM | disk | FTP | other *** search
/ Power Programmierung / Power-Programmierung CD 2 (Tewi)(1994).iso / doc / mir / 03why < prev    next >
Text File  |  1992-06-29  |  10KB  |  201 lines

  1.  
  2.  
  3.         ═══════════════════════════════════════════════
  4.  
  5.             3.    WHY YOU WANT TO USE MIR TUTORIALS
  6.  
  7.         ═══════════════════════════════════════════════
  8.  
  9.  
  10.         ════════════════════════════════
  11. 3.1           The end user and the
  12.               thirst for knowledge
  13.         ════════════════════════════════
  14.  
  15.             People need to know.  To know is to have understanding. 
  16. To know is to recognize the nature of something going on in our
  17. world.  For each of us, knowing is the key to control over our
  18. environment.  To know is to gain self-esteem and confidence. 
  19. Knowledge equips a person to create value.  And creating or adding
  20. value is what our working life is about.  Knowledge is always the
  21. first step.
  22.  
  23.             The objective of computerized indexing and retrieval is
  24. to serve people's need for knowledge.  The objective is NOT tidy
  25. techniques; it is service and empowerment.  Efficient techniques
  26. are simply a means to the end.  For those who insist that we focus
  27. on profit and the bottom line, consider this:  If we keep improving
  28. in our recognition of human need and our service of that need (and
  29. if we don't "park our brains at the door" in the process), that is
  30. the surest way to ongoing profit.
  31.  
  32.             Everything that follows seeks to give control to the
  33. end user.  Knowledge itself increases a person's control over his
  34. or her world.  The tools that we put in the hands of people
  35. searching for information should likewise increase (rather than
  36. diminish) control.  Every element of design and technique in the
  37. MIR project starts with user needs.  In simple terms, people
  38. matter.  If that sounds like a plea for market-oriented technology,
  39. yes, it is!
  40.  
  41.  
  42.         ═════════════════════════════════
  43. 3.2           Coping with data glut
  44.         ═════════════════════════════════
  45.  
  46.             People need to know.  But facts, or data, are not in
  47. themselves knowledge.  Facts are like jigsaw puzzle pieces.  We
  48. must have the pieces, or the puzzle will not come together.  And we
  49. don't want to miss any relevant facts.  But there are too many
  50. facts... jigsaw puzzle pieces... that don't contribute to our
  51. specific aim at any one point in time.  Piling on more and more
  52. facts does not necessarily lead to knowledge.  Data without
  53. recognizable patterns is noise.  Noise leads to stress and loss of
  54. function.  If there is a feeling of being swamped with data,
  55. finding desired patterns is all that much harder.
  56.  
  57.             Change has become the norm, change driven by forces
  58. such as the proliferation of new products, government regulation,
  59. social and technical complexity, communication improvements,
  60. customer autonomy, fragmenting markets, and so forth.  One notable
  61. result: our world is awash in a sea of data.  Organizations have to
  62. keep track of far more details than ever before.  Consider your
  63. employer as an example, or any government department with which you
  64. are familiar; how much more data is kept today than ten years ago? 
  65. With few exceptions, you find that there is an exponential
  66. explosion of data kept, data required, and information to be
  67. retrieved.
  68.  
  69.             Numbers of databases are growing.  So is the size of
  70. the typical accumulation of data.   This is illustrated by what
  71. happened in the CD-ROM industry.  When compact optical discs were
  72. first used for storing computer data in 1985, people wondered how
  73. a disc with a capacity of more than half a gigabyte could ever be
  74. fully used.  Now it is common for a single database to span several
  75. CD-ROMs.  The cost of new storage technology for personal computers
  76. is dropping fast.  More storage means more data, and that in turns
  77. means an increasing need for quality search capability.
  78.  
  79.  
  80.         ════════════════════════════
  81. 3.3           Empowering users
  82.         ════════════════════════════
  83.  
  84.             "I want what I want when I want it."  True for
  85. executives.  True for two year olds.  And, if we care to admit it,
  86. true for ourselves when we are searching for information.
  87.  
  88.             Anything can be found, if one has forever to find it. 
  89. But the average person hasn't got forever.  And the time that is
  90. available is too precious to be used staring at a "searching
  91. database..." message on a non-responsive computer screen.  Now even
  92. the most amateur retrieval system finds things fast within a small
  93. sample (which explains why so many sales demonstrations are done
  94. with small samples).  More sophisticated textbook indexing methods
  95. have acceptable levels of delay for 20,000 (and sometimes even as
  96. high as 100,000) records.  But today's databases very often exceed
  97. these limits.  So there has been a shakeout among computer methods
  98. of indexing and retrieving information.  Only the more powerful
  99. techniques of indexing and retrieval can compete on gigabyte-sized
  100. tasks.
  101.  
  102.             The primary need is to place a high value on people's
  103. time.  (So many managers miss this simple truth.)
  104.  
  105.             A second basic need is simplicity.  This derives from
  106. the need to value the user's time.  People do not want to invest
  107. time in reading manuals and learning complex systems.  Ideally, the
  108. searcher should be able to re-use a familiar and preferred search
  109. and retrieval system on any new set of data that comes to hand. 
  110. Maximum gain; minimum pain.
  111.  
  112.             The third need is access.  People are empowered to find
  113. information as timely data is made available to them at reasonable
  114. cost.
  115.  
  116.  
  117.         ══════════════════════════════════
  118. 3.4           Empowering an industry
  119.         ══════════════════════════════════
  120.  
  121.             Over the past 30 years, an entire industry has grown up
  122. around the requirement to equip persons and/or organizations to
  123. extract useful information simply and quickly from quantities of
  124. data.  The industry launched itself primarily from government data
  125. which was distributed on paper, microfilm, microfiche, punched
  126. tape, and eventually magnetic tape.  By the end of the 1960s, the
  127. industry was experimenting with on-line electronic information
  128. services.  It was the advent of personal computers and optical
  129. discs in the early 1980s that made possible information services at
  130. dramatically lowered costs.  Electronic search split quickly into
  131. on-line for the most current data and CD-ROM for historical data.
  132. The lowest cost medium has been CD-ROM, which offers the potential
  133. for random access across more than 600  million bytes in under two
  134. seconds.
  135.  
  136.             The ongoing needs of this industry have to do with
  137. development costs, the vast array of formats in which data is
  138. received, and disarray with respect to standards.
  139.  
  140.             Development time and costs are much too high because
  141. all the better indexing systems have been proprietary.  MIR
  142. Tutorials and software aim to make world class search and retrieval
  143. systems available to the public under the Free Software Foundation
  144. "copyleft" rules.  Firms may adapt MIR source code for their
  145. commercial purposes without payment of license fees or royalties. 
  146. Costs are also reduced as firms take advantage of automated
  147. indexing techniques.
  148.  
  149.             Variability in format of data to be indexed may
  150. diminish in the long term, but for at least the remainder of the
  151. twentieth century it will continue to be a problem.  We address the
  152. problem here by offering techniques to cover a wide range of cases.
  153.  
  154.             Standards are an issue because the end user is often
  155. forced to learn a new retrieval system when access to a new
  156. database is acquired.  The current standard for CD-ROM data on
  157. compact discs is ISO-9660.  This governs how file locations on a
  158. compact disc are listed in a directory, but has no bearing
  159. whatsoever on the actual content of an index file.  Other standards
  160. have been developed, for example, Office Document Architecture
  161. (ODA), Standard Generalized Markup Language (SGML), etc.  These are
  162. helpful, but neither do they make it possible to search in uniform
  163. ways across totally different databases.  CD-RDx and SFQL
  164. (Structured Full-Text Query Language) each propose to deal with the
  165. problem by engine-independent techniques in which the software
  166. dealing with proprietary indexes is separated from the software
  167. experienced by the searcher.  Each approach has merit; a variation
  168. of one or the other may become a new standard in CD-ROM usage.  The
  169. MIR project aims to facilitate the advance by suggesting index
  170. structures compatible with either system.  By reducing costs so
  171. that many players may use similar structures, and by encouraging
  172. improvements and discussion through interactive publishing, we lay
  173. the groundwork for development of more extensive standards in the
  174. future.
  175.  
  176.  
  177.         ══════════════════════════════
  178. 3.5           Beyond fast search
  179.         ══════════════════════════════
  180.  
  181.             Automated indexing and full text search of a wide
  182. variety of data are, in themselves, immensely worthwhile.  The
  183. value of this technology goes much further.  It serves as a
  184. foundation for other possibilities.  Among them...
  185.  
  186.     »   concept search;
  187.  
  188.     »   self-indexing hard disk systems for personal computers;
  189.  
  190.     »   correlation software;
  191.  
  192.     »   automated detection of trends within a company's production
  193.         or financial control system;
  194.  
  195.     »   records management applications;
  196.  
  197.     »   operating systems with indexing power;
  198.  
  199.     »   software that learns.
  200.  
  201. More on these in TUTORIAL FIVE!